ICML 2025 | 从联合空间到文本空间:测试时增强跨模态检索新范式
语义冗余:联合空间的全局对齐会把与语义无关的底层视觉因素一并拉近,淹没真正有用的语义线索。例如雪地纹理、树枝线条、水面反光、舞台灯光等,检索时易出现“背景相似但语义不对”的假阳性;在视频场景中,也会出现时序冗余。粒度错配:图像/视频天然具有“无限粒度”,而弱标
语义冗余:联合空间的全局对齐会把与语义无关的底层视觉因素一并拉近,淹没真正有用的语义线索。例如雪地纹理、树枝线条、水面反光、舞台灯光等,检索时易出现“背景相似但语义不对”的假阳性;在视频场景中,也会出现时序冗余。粒度错配:图像/视频天然具有“无限粒度”,而弱标
今年 ICML Outstanding Paper “COLLABLLM: From Passive Responders to Active Collaborators” 把从被动到主动的人机协作推到台前,展示了让大模型主动澄清意图、规划多轮协作的训练框架,
多模态大模型(MLLM)在高层次视觉理解与推理任务上展现出惊艳能力。然而,如果你仔细观察,就会发现一个的事实:它们在一些看似简单、直观、人类幼儿都能轻松完成的任务中,却频频「翻车」。